文档的分层注意力网络 November 14, 2025 1215 words • 7 min read Hierarchical Attention Networks for Document Classification 这篇论文引入了一个分层的注意力网络:它使用结构化的注意力,先理解单词,再理解句子,最后理解整篇文档。 HAN 由下面的组件组成: 1. 单词序列 Encoder:使用 Encoder 对句子中的单词进行处理。这个和 Seq2Seq 中的 Encoder 类似。 2... #Deep Learning#RNN#NLP#Document Classification
Mobile Net 网络与深度可分离卷积层 November 5, 2025 654 words • 4 min read 深度可分离卷积 (Depthwise Separable Convolution) 本质是一种分解卷积,它把一个标准的卷积操作分解成下面两个操作: 1. 深度卷积 (Depthwise Convolution):负责卷积。 2... #Deep Learning#CNN#CV
NiN 网络与 1x1 卷积核 November 4, 2025 1190 words • 6 min read 在讲解具体的 NiN 网络架构前,我们先谈谈 1x1 卷积核。 一般而言,对二维信号进行 1x1 卷积是没有意义的。但是在 CNN 中,整个空间是三维的,这个卷积核的实际大小为 $1\times 1\times \text{num{\_}channels}$。在这个卷积核在原有的 $m\times n$ 图像空间的每一个位置,都会与该点的 $\text{num{\_}channels}$... #Deep Learning#CV#CNN
感受野 November 3, 2025 1577 words • 8 min read 感受野(Receptive Field)指的是在输入图像上,能够影响到 CNN 中**某一个特定特征**值的那片区域。它的基本属性为中心位置和尺寸。 例如下面这个例子: <Image src={image_2025_11_03_20_51_00} alt="alt text" /> 这里的绿色特征图的每一个绿色点都是由一个 3x3 卷积层在蓝色的输出图上平移得到的,因此它的感受野为3。... #Deep Learning#CNN
VGGNet 网络 November 2, 2025 388 words • 2 min read VGGNet 这一网络架构揭示了网络深度对模型性能的影响,它只使用简单的 3x3 卷积核就得到了非常好的结果。 VGGNet 网络的设计哲学如下: 1. 使用小卷积核:全部使用很小的 3x3 卷积核。 2... #Deep Learning#CV#CNN
AlexNet 网络 November 2, 2025 151 words • 1 min read AlexNet大胆地构建了一个比LeNet深得多、宽得多的网络,并通过在 ImageNet 上的结果证明了:当网络足够深、数据足够多时,CNN的性能可以超过所有传统方法。 原始 AlexNet 的网络架构如下: . [alt text](alexnet-frame-and-demo-images/2025-11-02-11-18-32... #Deep Learning#CV#CNN
LeNet 网络 November 1, 2025 333 words • 2 min read LeNet 通过较为简单的网络架构,实现了下面的目标: 1. 有效的特征提取:使用“卷积层+池化层”的特征提取模块。 2... #Deep Learning#CV#CNN
lr-shedule October 18, 2025 83 words • 1 min read Write your blog post content here. This is a new blog post... #Deep Learning
批归一化补充 October 18, 2025 2033 words • 11 min read 批归一化的理论知识与实现在[之前 CS289 的作业中](https://fyerfyer. dev/blog/cs289-hw6-code/)已经有详细讲解了,这里谈论下对批归一化的一些理解。 批标准化(BN)能够稳定网络,从而允许使用远高于常规的学习率进行训练,而不会导致模型发散(即训练失败)。 我们使用 CIFAR-10 数据集做下面这个简单的实验: ```python def... #Deep Learning
参数初始化 October 18, 2025 1243 words • 7 min read 在前面的笔记中,我们提到了梯度爆炸与梯度消失的问题: - 如果梯度连乘项中的每一个因子都小于 1,那么一长串小于 1 的数字相乘,结果会以指数级速度缩小,迅速趋近于 0。 - 如果梯度连乘项中的每一个因子都大于 1,那么一长串大于 1 的数字相乘,结果就会以指数级速度增大,变得异常巨大。 导致这些现象的根本原因在于不恰当的信号流。而我们可以**用方差来衡量信号的强度**: - 方差接近于... #Deep Learning